【编者按】为深入贯彻落实党的二十大精神,引导基金行业机构践行《证券期货业科技发展“十四五”规划》,共促基金行业数字化转型,按照中国证监会总体工作部署,于2022年11月开展“证券期货业数字化转型主题宣传月”活动。通过开展“证券期货业数字化转型主题宣传月”活动,搭建交流平台,展现数字化转型成果案例,激发金融科技创新活力,营造金融科技长效发展新生态。该篇为“证券期货业数字化转型主题宣传月”系列宣传之十八。
——建信基金
一、背景
为了更好地服务客户,维护金融业的安全与稳定,基金行业监管愈趋严格,数据报送工作也越来越重要。建信基金作为金融行业内首批成立的银行系基金公司,除完成证监会要求的FISP报送、CISP资管报送、基金申赎及基金投资人结构日报表,基金业协会要求的资管业务运行月报、场外债券投资交易明细表、公募资金来源表等基金行业监管相关的报送工作外,还需要完成人民银行要求的金融机构资管产品数据报送、银行业金融机构黄金市场业务监测表、人民银行系统重要性银行统计制度报表报送、银保监会要求的综合化经营自查附属机构内部交易报送等银行业监管相关报送。其中证监会FISP报送、人民银行金融机构资管产品数据报送、人民银行系统重要性银行统计制度报表报送、基金业协会公募资金来源表、附属机构内部交易报送工作,需要业务人员每日手动填充新注册的对公客户的7项属性标签(以下简称“打标签”)。
为完成打标签工作,业务人员投入了越来越多的精力。一方面,业务人员需要结合业务经验才能正确填写标签,另一方面,有些属性包含的标签类型数量较大,如“FISP分类”有40个以上标签可选项,需要业务人员查找与比对之后才能选出正确的一项。随着公司业务的不断发展,新注册的对公客户数量越来越多,业务人员手动填写标签的工作压力不断增大。
2021年《证券期货业科技发展“十四五”规划》(以下简称《“十四五”规划》)正式发布[1],强调了“推进行业数字化转型发展”与“数据让监管更加智慧”两大主题。建信基金从数字化经营角度对监管报送业务中的打标签工作进行了分析,尝试通过人工智能算法对标签进行预填充,减少业务人员在填写标签上花费的时间和精力,提升员工工作效率和工作体验。
对新注册客户打标签,抖客网,本质是把客户分配到该标签对应类别中。通过建立机器学习模型,可以对客户的类别进行预测,并完成自动填写,供业务人员审核或修正。建信基金算法团队在对两种深度学习算法——文本卷积神经网络[2][3]和基于注意力机制的双向长短期记忆网络[4]进行探索后,对报送工作中需人工填写的7个属性进行了预测,均获得了极高的准确率, 已在建信基金统一报送平台上线使用。
二、两种深度学习模型
下面简介两种深度学习模型的基本原理。
(一)TextCNN模型
在短文本分类领域常用文本卷积神经网络(后面简称TextCNN)来完成分类任务。参考句子分类的卷积神经网络TextCNN网络结构[2] ,本文模型如图1所示。
该网络结构主要包括嵌入层、卷积层、池化、全连接层四部分。
TextCNN先使用预训练的词向量作为嵌入层,然后在卷积层使用一维卷积提取特征,再通过池化函数捕获最重要的特征,在全连接层建立特征到类别的全连接,将输出结果进行归一化转换后,可得到每个类别标签的概率。
(二)Bi-LSTM + Attention模型
长短期记忆网络LSTM,是一种循环神经网络模型。双向长短期记忆网络Bi-LSTM能更好地捕获句子中上下文的信息。而基于注意力机制的双向长短期记忆网络(以下称为Bi-LSTM + Attention)在关系分类[4]的实验中获得比较显著的效果。本文选用的Bi-LSTM + Attention模型如图2所示。
三、业务分析与模型构建
对公客户在基金公司注册成功后,就成为基金公司的新客户(以下简称“客户”)。根据监管要求,每一个新客户的加入,在报送时需对其补充 “客户类型”、“FISP分类”、“人行类型”、“内部交易类型”、“资金来源”“公募来源投向”、“人行重要性分类”共7个属性标签,而其中每一属性的填充,均需要从监管要求的标准标签集中选出一个标签。
比如,注册名称为“×银理财稳享固收精选2个月定开3号理财产品”的客户,设置 “客户类型”属性为“产品客户”,“FISP分类”属性为“银行子公司公募理财”,“人行类型”属性为“银行非保本理财”,“人行重要性分类”属性为“特定目的载体”,“内部交易类型”属性为“非内部交易客户”,“资金来源”属性为“其他机构”,“公募来源投向”属性为 “除上述类型外的其他机构投资者”。而名称为“北京××有限公司”的客户,则设置“客户类型”属性为“机构客户”,“FISP分类”属性为“境内非金融机构”标签,“人行类型”属性为“非金融企业”,“人行重要性分类”属性为“非金融企业”,这些属性标签与前者明显不同。
为实现智能化设置标签的目标,需要用模型预测出每个属性选择哪个标签是最适合的。通过对客户数据考察发现,客户名称是体现客户特点的核心因素,对于每个属性选择标签起重要作用。对客户名称建模,并从一个标准标签集中筛选出最合适的一个标签,填充到该客户某一属性上,是自然语言处理领域文本分类技术的一个典型应用场景。
所以,本文对客户7个属性分别建立了7个独立的分类子模型,预测各自对应的标签结果。每个模型训练与预测过程如图3所示。
在算法处理过程中,首先使用开源分词工具结巴分词,把客户名称切成有意义的词条序列,并去除助词、标点等无意义词条。
下一步通过词嵌入模型word2vec[5]进行语义抽取,每个词条的语义用同一维度的向量表示出来,客户名称就从词条序列转换成计算机可运算的语义数字矩阵。
最后用深度学习模型进行训练和预测。以TextCNN网络为例,前一步得到语义数字矩阵作为TextCNN网络的嵌入层输入数据,经过网络模型计算后,最终在全连接层后,预测出每个候选标签的概率,并选择概率最高的标签为某一属性最终的填充结果。
本文参考句子分类实验的模型结构和参数[3],选择卷积过滤器窗口大小为2、3、4、5,用以提取词之间多元语义信息。此外,卷积模式设计也重点考虑了文本首尾的边界特征的有效提取。比如名称为“××博时组合"的客户,因为“组合”是名称的结尾,则应标记为 “产品客户”,而名称为“北京××有限公司”的客户,是以“有限公司”为结尾的,则更可能归属于“机构客户”。
原标题:【基金业数字化转型专题 | 建信基金:深度学习辅助设置客户标签】 内容摘要:【编者按】为深入贯彻落实党的二十大精神,引导基金行业机构践行《证券期货业科技发展“十四五”规划》,共促基金行业数字化转型,按照中国证监会总体工作部署,于2022年11月开展“证 ... 文章网址:https://www.doukela.com/zmt/176540.html; 免责声明:抖客网转载此文目的在于传递更多信息,不代表本网的观点和立场。文章内容仅供参考,不构成投资建议。如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时修改或删除。 |